智能论文笔记

Business Document Information Extraction: Towards Practical Benchmarks

Matyáš Skalický , Štěpán Šimsa , Michal Uřičář , Milan Šulc

分类：人工智能 | 计算机视觉 | 机器学习

2022-06-20

从半结构化文件中提取信息对于无摩擦企业对企业（B2B）通信至关重要。尽管已经研究了与文档信息提取（IE）有关的机器学习问题数十年来，但许多常见的问题定义和基准并不能反映针对域特定方面和自动化B2B文档通信的实际需求。我们回顾文档的景观IE问题，数据集和基准。我们重点介绍了共同定义中缺少的实际方面，并定义了关键信息本地化和提取（KILE）和行项目识别（LIR）问题。由于其内容通常受到法律保护或敏感，因此缺乏用于半结构化业务文档的文档IE的相关数据集和基准。我们讨论了包括合成数据在内的可用文档的潜在来源。

translated by 谷歌翻译

相关文章
笔记